Tài nguyên Web_chìm

Số lượng thông tin trên deep web đang tăng nhanh. Giá trị nội dung của chúng không thể đánh giá đầy đủ được... lượng thông tin được (các máy tìm kiếm) tìm thấy chỉ chiếm 0.03% tổng lượng thông tin có trên Internet.[11]

— Michael K Bergman, [8]

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong danh mục sau:

  • Nội dung web động: các trang web động trả về kết quả theo một truy vấn hoặc xử lý theo dạng form, đặc biệt nếu sử dụng các thành phần nhập tên miền mở (như text field); các miền này rất khó xử lý nếu không có kiến thức về tên miền.
  • Các nội dung không được tạo liên kết hyperlink: các trang không liên kết với các trang khác, sẽ ngăn cản các chương trình dò (crawling program) truy cập vào nội dung của nó. Các trang này được truy cập trực tiếp trên thanh địa chỉ trình duyệt, vì không có các đường dẫn từ/trong bất kỳ trang web nào khác.
  • Các trang web phải xác thực truy cập: các trang yêu cầu phải đăng ký và đăng nhập mới vào xem thông tin được (các tài nguyên được password bảo vệ).
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung của nó, cũng như tạo phiên bản cache nội dung.
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript (mà hva là một ví dụ trực tiếp), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Các nội dung không theo kiểu HTML/text: Các nội dung dạng text được mã hóa trong các file đa phương tiện (hình ảnh hoặc video) hoặc các định dạng file đặc biệt mà các cỗ máy tìm kiếm không thể xử lý được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS.

Tài liệu tham khảo

WikiPedia: Web_chìm http://thehackernews.com/2016/02/deep-web-search-e... //citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1... http://ilpubs.stanford.edu:8090/725/ //doi.org/10.1016%2Fj.acalib.2004.04.010 https://www.nytimes.com/2009/02/23/technology/inte... https://www.questia.com/article/1G1-370513892/how-... https://www.sciencedirect.com/science/article/pii/... https://www.theguardian.com/technology/2009/nov/26... https://www.truthfinder.com/infomania/technology/d...